2025人工智能趋势
在铁路刚取代运河的时期,股价曾有几年强劲上涨,最终19世纪40年代的泡沫在过热的预期和不断变化的经济形势的重压下破灭了。
- 任何需要巨额资本支出的技术进步,即使最终取得成功,在早期也必然面临回报令人失望的真正风险
- 任何需要巨额资本支出并需要长期才能获得回报的技术,都必然是高风险的——除非存在某种形式的竞争保护措施
- 这些竞争的赢家并不总是那些拥有最先进技术的人,而是那些能够最清楚地洞察行业或市场未来发展方向的人
- 企业和投资历史最清晰的教训之一是,如果没有进入壁垒,先发优势很快就会丧失
本研究反复出现的一个主题是,虽然识别任何新技术的赢家通常都充满危险和困难,但识别谁将是“输家”却几乎总是更容易。
————阿拉斯代尔·奈恩《推动市场的引擎》
知识是一个堆积事实的过程,智慧在于它们的简化
知识分布的演变历史已经超过了六个世纪。印刷机发明于 1440 年,在1440-1992年间,知识分发以静态+实物交割呈现;1993 年,万维网 (WWW) 进入公共领域,允许用户创建网站,1993-2021年间,知识分发以主动+数字交付呈现;2022 年 11 月,ChatGPT(生成式 AI)公开发布,ChatGPT 实现了独立产品有史以来最快的用户增长(5 天即可获得 1MM 用户),知识分发以主动+数字化+生成式交付呈现。
快进到今天,世界有组织、互联和可访问的信息被人工智能、加速的计算能力和半无国界资本所增强……所有这些都推动了巨大的变化。
2017年,谷歌发布了题为《attention is all you need》的Transformers研究论文,由此,第一波“现代人工智能”(即LLM)的浪潮聚焦于文本:OpenAI的GPT-3和Meta的Llama-1等模型表明,教会计算机大规模完成句子可以释放广泛的推理能力。
然而,人类的交流很少只使用文本,甚至通常不是以文本为先。图像、音频、视频和传感器读数都承载着单凭文字无法传达的语境,因此,OpenAI(以及谷歌、Anthropic和xAI等同行)的研究人员开始扩展语言模型,以处理更多信号。多模态人工智能模型应运而生,它们将文本、图片、声音和视频嵌入到一个共享的表示中,并以任何格式生成输出。
单个查询可以引用一个段落和一个图表,模型可以以语音摘要或带注释的图像进行响应——无需切换系统。每一种新的模态都迫使模型在不同格式之间协调含义,而不是针对单一格式进行优化。实现这一能力的道路是循序渐进的:OpenAI 的 CLIP 在 2021 年将视觉和语言配对;Meta 紧随其后,分别在 2023 年和 2024 年推出了 ImageBind 和 Chameleon;到 2024-2025 年,GPT-4o、Claude 3 和 Chameleon 等前沿系统已完全实现多模态化。每一种新的模态都迫使模型在不同格式之间协调含义,而不是针对单一格式进行优化。
其回报是切实的。
- 现场工程师可以将手机摄像头对准机器,即可获得简明语言的故障诊断;
- 临床医生可以将 X 光片附加到病历上,即可获得结构化的报告草稿;
- 分析师可以在单个查询中组合图表、文字记录和音频片段。
与纯文本模型相比,多模态系统减少了上下文切换,捕捉了更丰富的细节,并支持质量控制、辅助技术、内容创作等应用,在这些应用中,视觉或听觉信息与文字同样重要。
回顾计算机的发展历程,人类经历了精彩的70年,
- 1947年12月,约翰·巴丁(John Bardeen) 和 沃尔特·布拉顿(Walter Brattain) 在贝尔实验室成功研制出世界上第一个点接触晶体管。贝尔实验室基于点接触整流效应,正式提交半导体二极管专利,并命名为 “半导体二极管”(Semiconductor Diode);
- 1946年,美国宾夕法尼亚大学的 J. Presper Eckert 和 John Mauchly 发明世界第一台通用电子计算机(真空管技术),重30吨,占地167㎡,为大型机物理形态奠定基础;
- 1950s,MIT林肯实验室,肯·奥尔森(Ken Olsen)、哈兰·安德森(Harlan Anderson)等首次使用晶体管(非真空管),体积缩小至房间大小,支持交互式操作,为小型机奠定技术基础;
- 1956年:达特茅斯会议(约翰·麦卡锡等)提出“人工智能”概念;
- 1964年,IBM 工程师 Gene Amdahl(架构师)和 Fred Brooks(项目经理),首次实现兼容性架构(同一系统支持不同规模机型),使得计算机硬件从分立晶体管过渡到混合集成电路(SLT);
- 1965年,王安电脑LOCI-2发布;
- 1975年,Ed Roberts基于Intel 8080处理器,以套件形式销售,引发爱好者革命(比尔·盖茨为其编写BASIC解释器),首台商用PC诞生;
- 1974年,文顿·瑟夫 & 罗伯特·卡恩发明了TCP/IP协议;
- 1977年,“PC三巨头”定义现代形态:Apple II(史蒂夫·乔布斯 & 史蒂夫·沃兹尼亚克):首台预装键盘、彩色显示的家用PC;Commodore PET & TRS-80:普及商用/教育市场;
- 1980s,科学家们提出专家系统(受限算力失败);
- 1981年,IBM PC(IBM团队,Don Estridge领导),采用开放式硬件架构(允许第三方兼容),运行微软DOS系统,奠定PC生态基础;
- 1989年,蒂姆·伯纳斯-李(CERN)发布了万维网(WWW);
- 1993年,马克·安德森(NCSA团队)发布了图形浏览器(Mosaic);
- 1998年,拉里·佩奇 & 谢尔盖·布林发明了搜索引擎(Google);
- 1999年:日本NTT DoCoMo推出 i-mode(首个移动互联网服务);
- 2001年日本 → 全球2004-2008: 3G商用,高速数据传输支撑视频/应用;
- 2007年:iPhone(史蒂夫·乔布斯)整合多点触控+ Safari浏览器,重新定义智能终端;
- 2010年:4G/LTE流量成本下降催生短视频、直播等新业态;
- 2008年:苹果 App Store(斯科特·福斯托尔团队)开创应用经济模式;
- 2009年:WhatsApp/微信等OTT服务取代短信;
- 2012年,杰弗里·辛顿团队在ImageNet竞赛用CNN模型(AlexNet)碾压传统算法,引爆AI复兴;
- 2022年:OpenAI发布 ChatGPT(基于GPT-3.5),首次实现自然语言交互大众化;
- 2023年:多模态大模型(GPT-4、Gemini)重塑生产力工具……
不到一个世纪,人类的科技就有了如此巨大的进步,人们的生活方式有了翻天覆地的变化,一切都正如我很喜欢的一篇肯尼迪的演讲中所说:
————《We choose to go to the Moon》,John Fitzgerald Kennedy,1962
在这个时间跨度下,我们对于开始的40年知之甚少,除了在进化的最后阶段我们学会了用兽皮遮体。接下来,在此标准之下,10年前,人类走出洞穴,开始建造新的家园。五年前人类才学会了写字和使用有轮子的车辆。基督教产生于不到两年前。印刷出版今年才出现。在人类历史的50年间,在不到两个月前,蒸汽机为我们提供了新的动力。牛顿发现了引力的意义。上个月,电灯,电话,汽车和飞机成为了现实。仅仅上周我们才发明了盘尼西林(即青霉素,译者注),电视与核能。如果现在美国最新的飞船能够成功抵达金星,那么我们才真正算得上在今天午夜抵达其他星球了。
————《我们选择登月》约翰·F·肯尼迪,1962
1950-2022,人工智能升空前许多年
一、奠基时期 (1950s-1960s)
- 1950年10月,艾伦·图灵(Alan Turing)提出图灵测试,定义”机器能否像人类一样思考”的标准,奠定AI理论基础。
- 1956年6月,约翰·麦卡锡(John McCarthy)发起”达特茅斯会议”,首次提出”人工智能(AI)”术语,标志AI正式成为独立学科。
- 1962年1月,亚瑟·塞缪尔(Arthur Samuel)开发自学习跳棋程序,IBM科学家创造首个击败人类冠军(美国跳棋大师)的AI,展示机器学习潜力。
- 1966年1月,斯坦福推出Shakey机器人,首个能自主感知环境、规划行动的通用移动机器人,开启机器人推理时代。
二、AI寒冬与缓慢发展 (1967-1996)
- 1967–1996年,AI “寒冬”(Winter),因技术瓶颈与资金萎缩,AI研究陷入长达30年的低潮期。
三、突破性进展 (1990s-2010s)
- 1997年5月,IBM”深蓝”击败国际象棋世界冠军,超级计算机Deep Blue战胜卡斯帕罗夫(Garry Kasparov),证明AI在复杂决策领域的优势。
- 2002年9月,iRobot推出Roomba扫地机器人,首款量产家用自主导航机器人,推动消费级AI产品普及。
- 2005年10月,斯坦福团队赢得DARPA自动驾驶挑战赛,无人车”Stanley”完成132英里沙漠赛道,奠定自动驾驶技术基础。
- 2010年4月,苹果收购并整合Siri语音助手,Siri随iPhone 4S发布,成为首个大众化智能语音交互系统。
四、现代AI爆发期 (2010s-2020s)
- 2014年6月,聊天机器人Eugene通过图灵测试,33%评委认为Eugene是人类,引发对AI拟人化的伦理讨论。
- 2018年6月,OpenAI发布GPT-1,首个基于Transformer的大规模语言模型(LLM),开启生成式AI新时代。
- 2020年6月,OpenAI推出GPT-3,微软获独家授权,1750亿参数模型实现接近人类的文本生成能力,微软将其接入Azure等产品。
- 2022年11月,ChatGPT向公众开放,基于GPT-3.5的对话模型引爆全球AI热潮,用户数破亿仅用2个月。
2023-2025,生成式AI爆发与全球协作启幕
2023年3月,OpenAI 发布 GPT-4,首个多模态模型(multimodal),支持文本与图像混合输入,推理能力跨越式提升;Google 推出 Bard,对标 ChatGPT 的对话模型,开启科技巨头AI竞赛;Anthropic 发布 Claude,强调安全性与可解释性的AI助手,定位伦理优先;微软将 Copilot 集成至 365 全家桶,AI办公助手全面商业化落地。
2023年11月,《布莱切利宣言》签署,中、美、欧盟等 28国共同承诺 加强AI安全治理,标志全球监管协作启动。
2024年3月-4月,Meta 开源 Llama 3(700亿参数),开源模型性能逼近闭源巨头,推动行业技术民主化(标注open-source);美国国土安全部发布《AI路线图战略》,政府层面系统性规划AI在国家安全中的应用与风险管控。
2024年5月,OpenAI 推出 GPT-4o,实现音频、视觉、文本全模态无缝交互(如实时视频对话),体验接近真人;Google 搜索引入AI概览(AI Overviews),搜索引擎直接生成答案,传统检索模式被颠覆。
2024年7月-9月,苹果发布 Apple Intelligence(开发者版),深度集成端侧AI,实现设备本地化智能处理;阿里巴巴开源 100个 Owen 2.5 模型,中国首个对标GPT-4性能的开源模型群,打破西方技术垄断。
2024年12月,OpenAI 预告 o3 模型,官宣”史上最强性能”,多模态能力再突破(细节未公开)。
2025年1月,深度求索(DeepSeek)开源 R1 & R1-Zero,专注数学与逻辑推理的轻量化模型,中国技术路线差异化突破;阿里巴巴推出 Owen2.5-Max,部分测试超越GPT-4o、Claude 3.5,中国模型首次登顶推理能力榜单。
2025年2月,巨头密集发布升级模型,OpenAI(GPT-4.5)、Anthropic(Claude 3.7)、马斯克xAI(Grok 3)同期竞技。
2025年4月,ChatGPT 周活用户突破8亿,成为史上用户增速最快的技术产品(对比:TikTok达1亿用户需9个月,ChatGPT仅2个月)。
AI 性能:越来越逼真的图像生成
同一句prompt:“女士向日葵吊坠项链”,在2022(左)和2025(右)的表现;
在2025,AI生成图片的质量已超过真实拍摄图片质量;
简而言之,我们的整个文明都是人类智慧的产物。如果我们能够获得更强大的机器智能,我们的雄心壮志将得到大幅提升。人工智能和机器人技术有可能将人类从繁琐的重复性工作中解放出来,并大幅提升商品和服务的产量,这可能预示着一个和平富足的时代,加速科学研究的能力可能带来疾病的治愈方法,以及气候变化和资源短缺的解决方案。
然而,早在我们有机会“解决人工智能问题”之前,我们就会面临人工智能滥用的风险,无论是无意的还是其他原因造成的。其中一些风险已经显现,而另一些风险则可能基于当前的趋势,包括致命的自主武器、监视和劝说、有偏见的决策、对就业的影响、安全关键应用、网络安全。
——史蒂芬·霍金,理论物理学家/宇宙学家 (1942-2018)
要了解人工智能模型开发的发展方向,有必要研究两种截然不同的方法(闭源和开源)是如何演变和分化的
在现代机器学习的早期(2012-2018 年),大多数模型都是开源的,植根于学术和协作传统。但随着人工智能系统变得越来越强大和具有商业价值,以及开发从学术界转向产业界,一个平行的潮流出现了——大约在2019年(GPT-2 发布时权重受到限制),专有(闭源)模型的开发,其动机是 专有利益、竞争优势和安全考虑。
闭源模型遵循中心化、资本密集型的轨迹。这些模型(例如 OpenAI 的 GPT-4 或 Anthropic 的 Claude)在专有系统中使用海量专有数据集进行训练,需要数月的计算时间和数百万美元的投入。它们通常性能更强大、更易于使用,因此受到企业和消费者的青睐,而且——也越来越受到政府的青睐。然而,代价是 不透明:无法访问权重、训练数据或微调方法。
最初的研究前沿领域,如今沦为 封闭式产品体验,通过 API 提供服务,授权给企业,并受到法律和商业防火墙的保护。如今,人工智能竞赛又回到了原点。随着大语言模型(LLM)的成熟以及竞争的加剧,我们看到开源模型的复苏,因为它们成本更低、功能更强大,并且开发者和企业都能更广泛地访问。这些模型可供任何人免费使用、修改和构建,因此通常受到早期初创公司、研究人员/学者和独立开发者的青睐。
像 Hugging Face 这样的平台让下载 Meta 的 Llama 或 Mistral 的 Mixtral 等模型变得轻而易举,让初创公司、学者和政府无需数十亿美元的预算就能获得前沿级别的人工智能。开源人工智能已经成为现代科技时代的“车库实验室”:快速、混乱、全球化且高度协作。截至第二季度,中国(根据发布的大型人工智能模型数量)在开源竞赛中处于领先地位,2025年将发布三个大型模型DeepSeek-R1、阿里巴巴 Qwen-32B 和百度 Ernie 4.5。
这种分裂带来了一系列影响。开源正在推动自主人工智能计划、本地语言模型和社区主导的创新。与此同时,封闭模型则占据着消费市场份额和大型企业的主导地位。我们正在见证两种理念并行展开——自由与控制、速度与安全、开放与优化,它们不仅塑造着人工智能的运作方式,也塑造着谁将运用它。
要了解企业 AI 盈利化的发展方向,不妨先思考一下,软件本身正在走向何方
几十年来,商业软件遵循着一个熟悉的模式:开发专用工具,将其出售给狭窄的用户群,然后在垂直领域内扩展。这是一个垂直 SaaS 的时代——餐厅领域的 Toast、保险领域的 Guidewire、生命科学领域的 Veeva……每种工具都解决了一个深层次、狭窄的问题。但随着基础模型和生成式 AI 的兴起,其他公司也开始追逐这些领域。
进入横向企业平台——将AI原生生产力、搜索、通信和知识管理整合到一个统一界面的横向层级。可以将其想象成 Slack 与 Notion 以及 ChatGPT 的结合,所有这些都在一个平台上。横向企业平台可以引领一种新的盈利方式:不是通过出售孤立的软件许可证,而是通过对嵌入整个堆栈的智能收费。价值从工具转向成果——从 CRM 到自动化交易摘要,从服务台到 AI 驱动的解决方案流程。
这些横向能力尚处于起步阶段,但已有老牌企业和新兴企业已经开始运用它们。微软正在将 Copilot 集成到整个堆栈中;Zoom 和 Canva 正在将 GenAI 分层到面向用户的工作流程中,而 Databricks 正在将 GenAI 融入其数据和开发者堆栈中。与此同时,像 Glean 这样的初创公司正在押注 AI 优先的工作流程,以挑战套件模式。
但专业供应商并未停滞不前。他们正在更快地吸收人工智能——嵌入Copilot、自动化工作流程,并基于专有行业数据微调模型。这些平台已经拥有人工智能赖以生存的工作流程、信任和结构化数据。这让他们在部署特定领域智能方面占据先机——这些人工智能不仅可以总结会议内容,还能标记监管风险、实时优化定价,或起草符合FDA合规要求的文件。
在许多情况下,他们的在职经验成为了他们的优势:他们可以将人工智能作为一项功能而非产品推出,并在不改变购买行为的情况下将其转化为收益。人工智能商业化的下一章可能不是一场赢家通吃的战斗,而是一场融合。
横向平台将拓展广度,整合跨职能部门的知识;专业供应商将拓展深度,提供能够理解合规、合同和客户意图的人工智能。问题不在于平台还是专家胜出——而在于谁能抽象出正确的层面,拥有界面,并捕捉工作本身的逻辑。在人工智能时代,商业化不仅仅取决于使用量,还取决于注意力、情境和控制力。
——微软首席执行官萨蒂亚·纳德拉,7 月 24 日
——微软首席执行官萨蒂亚·纳德拉,1月25日
ChatGPT Enterprise 取消了所有使用限制,并且执行速度最高可达 ChatGPT Free 的两倍…………ChatGPT Enterprise 还提供对高级数据分析(以前称为代码解释器)的无限制访问权限。
——ChatGPT Enterprise 发布声明,8 月 23 日
其中一个很亮眼的例子,软件工程(代码编辑器)——Anysphere Cursor AI ARR 收入在25 个月内从 $1MM 涨至 $300MM
——Anysphere 新闻稿 (8/24)
——Anysphere 新闻稿 (8/24)
另一个很亮眼的例子,产品开发(无代码产品构建)——Lovable ARR在五个月内增长13 倍至 $50MM
注:Lovable 是一个由人工智能驱动的应用程序开发平台,用户可以通过自然语言描述自己的想法来创建全栈 Web 应用程序。该平台将这些描述转化为功能性应用程序,处理前端和后端代码生成、数据库集成和部署。
——- Frederik Cassel, Creandum,‘Backing Lovable: Move Fast and Make Things,’ 2/25*
其他类似的例子还有:
- 医疗保健(临床对话): Abridge 在 ~五个月内 营收从 $50MM 增加至 $117MM CARR ;
- 客户服务(AI 支持代理): Decagon 在一年内 营收从 $1MM 增加至 $10MM ARR;
- 金融服务(研究与分析): AlphaSense 在两年内 营收从 $150MM 增加至 $420MM。
———— AlphaSense 联合创始人兼首席执行官 Jack Kokko (3月25日)
- 驱动的采矿勘探 (KoBold Metals) 将改变勘探效率低下的逆转趋势
—— KoBold Metals 联合创始人兼首席执行官 Kurt House,12 月 22 日
KoBold 的 Machine Prospector 技术将前所未有的数据集与传统的地球化学、地球物理和地质数据结合,建立统计关联模型,以识别潜在矿产资源。KoBold 的技术通过高效筛选大面积区域来加速勘探,并通过识别最有前景的矿产位置来提高我们的勘探效率。
- 农业现代化(碳机器人)
——Carbon Robotics 创始人兼首席执行官 Paul Mikesell,12 月 22 日
——Carbon Robotics 创始人兼首席执行官 Paul Mikesell,3 月 25 日
- 医学发现&发展
- 精度制造业
- 多用途机器人
- 自治科研
- 供应链优化
- 网络安全&威胁检测
- 个性化教育
- 自冶金融
- 环境&气候监测
- 能源网管理
- 等…….
更值得关注的是人工智能的发展势头以及桌面/移动软件的变现
在某些方面,人工智能在现实世界中的发展势头和变现甚至更加令人瞩目。我们正在进入一个智能不仅嵌入数字应用,还融入车辆、机器和防御系统的时代。
除了数字代理的崛起,世界也正在经历物理代理的崛起。像 Waymo 和特斯拉的全自动驾驶 (FSD) 测试版这样的自动驾驶车队已不再是局限于测试跑道的科学项目——它们是能够创造收益的部署,记录了数百万英里的无人驾驶里程,其软件循环的自主性日益增强。它们背后的技术栈正变得越来越智能,数据也越来越庞大和丰富。
例如,Applied Intuition 正在构建仿真平台和软件定义的车辆系统,将自主性从硬件中抽象出来——以便制造商能够像生产零部件一样轻松地交付智能。
我们正在见证人工智能原生基础设施在现实世界中的早期架构:
- 在国防领域,像 Anduril 这样的公司正在重新定义国防——在每个边缘节点(而不仅仅是指挥中心)部署搭载人工智能的自主无人机和反入侵系统。
- 在农业领域,像 Carbon Robotics 这样的公司正在将人工智能应用于农田——利用计算机视觉技术,无需使用除草剂即可除草。
我们相信,这些现象都指向更深刻的变革:在人工智能驱动下,资本资产正蜕变为软件终端。曾经禁锢于屏幕与仪表盘的智能,而今获得了具象化的生命力。
由于低成本卫星互联网(Starlink)连接/接入的兴起,26亿(占全球人口的32%)尚未上网的用户上网的潜力正在不断增长。这些新用户将从零开始,体验人工智能功能。
哇!当这些新用户上网时,他们很可能不会遇到浏览器和搜索栏。他们将从人工智能开始——而且是用他们的母语。想象一下,互联网的“初体验”不再是向搜索引擎输入查询,而是与一台会回复的机器对话。想象一下,完全跳过传统的应用层,使用代理驱动的界面,在一个地方管理不同的技术平台,同时理解用户的本地语言、语境和意图。代理优先的互联网体验可能会颠覆现有的技术等级制度,消除主导平台的中介作用,并重新分配价值。在这种模式下,赢家不是拥有应用程序的人,而是拥有界面的人。
人工智能正在从根本上改变我们的工作方式。除了物理自动化(例如机器人和无人机的普及)的增长之外,我们现在也看到了认知自动化的兴起,人工智能系统可以推理、创造和解决问题。
人工智能认知能力的提升速度令人震惊
自ChatGPT于11月22日公开发布以来的三年里,我们的推理能力已经从高中生的水平提升到了博士生的水平。以处理大量结构化历史数据并输出基于规则的决策和判断为中心的职业,恰恰属于生成式人工智能的核心竞争力。在这个新兴领域,劳动单位可以从人工工时转变为计算能力。在许多情况下,算力中心和基础模型可以决定某些类型劳动力的可用性和质量。因此,一些人宣扬“代理未来”,即人工智能代理在许多白领工作中取代人类。
尽管人类的角色可能存在,但历史和模式识别表明,人类的角色将持续存在且引人注目。技术进步的飞跃通常会推动生产力和效率的提升,并带来更多(但全新的)工作岗位。即便如此,这一次,它发生得更快。在一个极端的、完全自主的未来,人类将在系统中扮演重要角色,并转向监督、指导和培训。想象一下,在设施中挤满了人,他们教机器人复杂的动作;或者在办公室里挤满了员工,他们提供强化学习人类反馈 (RLHF) 来优化算法。
你们都听过很多关于人工智能取代工作岗位的说法。有些工作岗位会消失,有些工作岗位会被创造出来,但所有工作岗位都会受到影响。毋庸置疑的是,你的工作不会因为人工智能而流失,但你的工作会因为使用人工智能的人而流失。
但让我给你们举两个极端的例子,你们或许也需要考虑一下。
计算机技术,计算机科学已经造福了大约3000万人。世界上大约有3000万人懂得如何编程,并将这项技术运用到极致,而剩下的80到75亿人却不懂。我可以肯定地说,人工智能实际上是我们弥合技术鸿沟的最大机遇。让我向你们证明这一点。你知道,如果我们看看这个房间里的人,你会发现,很少有人会用 C++ 编程,也很少有人会用 C 语言编程。然而,你们 100% 的人都知道如何用人工智能编程。这是因为人工智能会说任何你想说的语言。
从ChatGPT到Gemini Pro,如此庞大的人工智能用户群体,恰恰印证了一个事实:人工智能或许是史上最易上手的技术。而另一重现实更值得深思——当前全球正面临严重的劳动力短缺,工人缺口持续扩大。但历史首次,我们看到了转机:人工智能有望填补3000万至4000万的人力缺口,为世界经济注入本不可得的劳动力资源。可以说,提升全球GDP的突破点,正在于此。因此,我呼吁诸位:务必推动身边每个人拥抱人工智能。在这场变革中,无人应当成为旁观者。
想象一下,如果没有互联网,你的下一周将会有多么不同。现代生活的方方面面(我们的工作方式、沟通方式、治理方式等等)都可能被彻底颠覆。互联网已经融入了生活的方方面面,无论大小,以至于对许多人来说,很难想象一个没有互联网的世界。在未来的十年或二十年里,想象一个没有人工智能的世界,感受可能也是一样的。
要了解技术资本支出的未来走向,有必要回顾其发展历程
在过去二十年中,技术资本支出在算力发展的长河中不断向上弯曲——首先是 存储/访问,然后是分发/扩展,现在则是计算/智能。
最早的浪潮中,资本支出涌入互联网基础设施建设——大型服务器群、海底电缆以及早期算力中心,这些设施使亚马逊、微软、谷歌等公司得以为云计算奠定基础,这是第一阶段:存储、组织、服务。
第二波浪潮(仍在展开)旨在为数据密集型人工智能工作负载提供超强计算能力,这是云计算的自然演进。超大规模的资本支出预算现在越来越倾向于专用芯片(GPU、TPU、人工智能加速器……)、液体冷却和前沿算力中心设计。2019 年,人工智能还是一项研究功能;到 2023 年,它已成为一项资本支出项目。
算力依然是关键——但现在,优势属于那些能够最快地利用数据进行训练、最深入地个性化数据并最广泛地部署数据的人。随着预制模块、简化的许可流程以及电气、机械和软件系统的垂直整合,新的算力中心正在以更接近消费科技周期而非房地产开发的速度增长。但这种速度的背后隐藏着一个绝非易事的资本模型。
资本支出由土地、电力供应、芯片和冷却基础设施驱动——尤其是在人工智能工作负载将热量和功率极限远远超出传统企业计算能力的情况下。相比之下,运营支出则主要由能源成本和系统维护成本驱动,尤其对于接近恒定负载运行的高密度训练集群而言。收入由计算销售额驱动——无论是以人工智能 API、企业平台费用还是内部生产力提升的形式。但回报期通常很长,尤其是对于那些领先于需求建设的垂直整合型企业而言。对于新进入者来说,盈利能力可能滞后于建设进度几个季度甚至数年。
此外还有供应链。电力供应正变得越来越重要,变压器、变电站、涡轮机、GPU、电缆——这些都不是一夜之间就能建成的商品。在这种情况下,算力中心不仅仅是物理资产,更是战略性的基础设施节点。它们 位于房地产、电力、物流、计算和软件商业化的交汇处。能够做到这一点的公司可能不仅仅是运行服务器——它们 将塑造未来十年人工智能经济的格局。
要理解人工智能开发者活动的激增,观察推理成本的大幅下降以及高性能模型日益普及的趋势将大有裨益
2022 年至 2024 年间,运行语言模型的单位成本估计下降了 99.7%,这得益于硬件和算法效率的大幅提升。曾经只有大型企业才能负担得起的成本,如今却让个人开发者、独立应用程序开发者、使用笔记本电脑的研究人员以及小店员工都能负担得起。成本的大幅下降使得实验成本低廉、迭代速度快,并且几乎任何有想法的人都可以将其产品化。
与此同时,性能趋同正在改变模型选择的计算方式。性能最佳的前沿模型与规模更小、更高效的替代方案之间的差距正在缩小。对于许多用例(例如汇总、分类、提取或路由),实际性能的差异可以忽略不计。开发者发现,他们不再需要为顶级模型支付高昂费用才能获得可靠的输出。相反,他们可以在本地或通过低成本 API 提供商运行更便宜的模型,并获得功能相似的结果,尤其是在针对特定任务的数据进行微调时。这种转变正在削弱现有模型提供商的定价优势,并为 AI 开发创造公平的竞争环境。
在平台层面,基础模型的激增创造了一种新的灵活性。开发者现在可以在数十种模型中进行选择——OpenAI 的 ChatGPT、Meta 的 Llama、Mistral 的 Mixtral、Anthropic 的 Claude、谷歌的 Gemini、微软的 Phi 等等,每种模型都在不同的领域表现出色。有些模型针对推理进行了优化,有些则针对速度或代码生成进行了优化。
这最终摆脱了供应商锁定。开发者不再局限于某个可以限制访问权限或提高价格的单一供应商,而是将他们的工作分散到多个生态系统中。这种多元化的选择,使新一波开发者能够根据其技术或财务需求选择最合适的模型。由开发者主导的基础设施增长模式正在形成。
随着越来越多的开发者构建 AI 原生应用,他们也创建了工具、包装器和库,以便其他人更容易效仿。新的前端框架、嵌入管道、模型路由器、矢量数据库以及服务层正在加速增长。每一波开发者活动的涌现都会减少下一波的阻力,从而缩短从创意到原型,以及从原型到产品的时间。在此过程中,人工智能构建的障碍正在瓦解——这不仅是成本上的,也是复杂性上的。这不再仅仅是平台的转变,而是创造力的爆发。
要理解人工智能计算经济学的演变,有必要探究成本集中在哪里以及它们的未来走向
人工智能大型语言模型 (LLM) 开发的大部分支出仍然由计算成本主导,具体来说,是训练和运行模型所需的计算成本。训练成本仍然居高不下,并且还在快速增长,目前每个模型的成本通常超过 1 亿美元。
围绕这些核心计算成本,还有其他高成本环节:研究、数据采集和托管,以及各种员工薪酬、一般管理费用和上市运营成本。即使模型训练成本不断攀升,人工智能总支出中越来越多的部分正转向推理——实时大规模运行模型的成本。推理持续发生,涉及数十亿次提示、查询和决策,而模型训练则是偶发性的。
在规模化的情况下,推理将成为持续的成本中心——尽管单位推理成本有所下降,但它仍会随着使用量的增长而增长。更广泛的动态显而易见:较低的单位成本正在推动总体支出的增长。随着推理成本的降低,人工智能的应用也越来越广泛。而随着人工智能的应用越来越广泛,基础设施和计算需求的总体增长也随之上升,从而再次推高了成本。这形成了一个飞轮式的增长,给云服务提供商、芯片制造商和企业IT预算都带来了压力。人工智能的经济性正在快速发展——但就目前而言,其驱动力仍然是 高资本密集度 、 大规模基础设施 以及 为满足指数级增长 的需求而展开的竞争。
要想了解人工智能基础设施的经济效益,有必要了解算力中心建设的速度和规模
当前人工智能驱动的需求浪潮已将算力中心支出推至历史新高。根据 Dell’Oro Research 的数据,全球 IT 公司算力中心的资本支出在 2024 年达到 4550 亿美元,并且还在加速增长。超大规模企业和 AI 优先型公司都在投入数十亿美元建设计算就绪型容量——不仅用于 存储 ,还用于需要 高密度、高性能硬件 的 实时推理和模型训练工作负载。随着人工智能从实验走向关键应用,算力中心也在不断发展。
这场竞赛的进展速度超出了许多人的预期。最引人注目的例子可能是 xAI 位于田纳西州孟菲斯的 Colossus 工厂,它仅用 122 天就从一个破败的工厂变成了一个全面运营的人工智能算力中心。正如第122页所述,这座建筑 占地75万平方英尺(约合75万平方英尺),大约相当于418栋美国普通住宅的面积,而建造时间仅为普通美国住宅的一半。
要理解人工智能模型经济学的未来发展方向,可以看看能力与成本之间日益加剧的矛盾
训练最强大的大型语言模型 (LLM) 已成为人类历史上最昂贵/资本密集型的工作之一。随着性能前沿向更大的参数数量和更复杂的架构迈进,模型训练成本正飙升至数十亿美元。讽刺的是,这场构建最强大通用模型的竞赛可能正在加速其商品化,并导致收益递减,因为各参与者的输出质量趋同,差异化变得越来越难以维持。与此同时,应用/使用这些模型的成本(即推理)正在快速下降。
硬件正在不断改进——例如,NVIDIA 2024 款 Blackwell GPU 的单位代币能耗比其 2014 款 Kepler GPU 的前代产品降低了 10.5 万倍;再加上模型算法效率的突破,推理成本正在大幅下降。随着推理成本的降低和效率的提升,LLM 提供商之间的竞争压力也随之增大——这不仅体现在 准确性方面,还体现在 延迟、 正常运行时间和 每个token的成本等方面。过去花费几美元的东西,现在只需几美分;而原本花费几美分的东西,可能很快就会降到几分之一美分。
硬件效率的这些改进对于抵消电网上 AI 和互联网使用量增加的压力至关重要。然而,到目前为止,这些还不够。这一趋势与 1865 年首次提出的 Jevons Paradox 一致,即 提高资源效率的技术进步实际上会导致这些资源的整体使用量增加,这 推动了对扩大能源生产能力的新关注,以及对电网管理能力的新问题。
其影响仍在不断显现。对于用户(和开发者)来说,这种转变是一份礼物:大幅降低单位成本,即可获得强大的 AI 能力。随着最终用户成本的下降,新产品和新服务的创造蓬勃发展,用户和使用率也在不断提高。然而,对于模型提供商来说,这引发了关于盈利和利润的真正问题。
对于一刀切的 LLM 方法,新的挑战也随之而来,针对定制用例训练的更小、更便宜的模型正在涌现。课程提供商会尝试构建横向平台吗?他们会深入研究专业应用吗?只有时间才能给出答案。短期内,大模型(LLM)的经济效益看起来就像是大宗商品业务,但会像风险投资规模一样烧钱,这一点不容忽视。
随着全球数字用户群的不断增长以及潜在使用吸引力的同步提升,企业投资领域(无论新老公司)的竞争日益激烈,资本密集度也日益提升。
我们从未见过如此多由创始人驱动/协助的公司(例如苹果),市值超过1万亿美元(大多数公司的毛利率超过50%,且拥有自由现金流)在一个相对透明的世界里,同时争夺同一个机会,再加上全球强国(中国和美国)之间的高风险竞争。海明威在《太阳照常升起》中用“逐渐,然后突然”来形容技术的转折点非常贴切。
- 个人电脑的转折点是苹果Macintosh(1984年)和微软Windows 3.0(1990年)的推出。
- 互联网的转折点是网景公司的IPO(1995年)。
- 移动互联网的转折点是苹果iPhone应用商店的上线(2008年)。
- 云计算的转折点是AWS(亚马逊网络服务)基础产品的推出(2006-2009年)。
- 人工智能的转折点是英伟达A100 GPU芯片(2020年)和OpenAI公开版ChatGPT(2022年)的发布。
实际上,随着中国DeepSeek(1月25日)的发布以及马云出席中国国家主席习近平主持的中国商界领袖座谈会(2月25日),全球人工智能竞争拉开帷幕。
人工智能增长(以及亏损)的资金来自拥有巨额自由现金流和庞大资产负债表的大公司,以及来自世界各地富有且雄心勃勃的资本提供者。毫无疑问,这种竞争/资本/创业精神的动态组合将迅速推动人工智能的发展,而决定哪些商业模式将最终屹立不倒仍是一个谜。
人工智能技术周期的创造性颠覆在历史上并不鲜见。近期一些引人注目的事件包括:
- 苹果公司在1997年濒临破产,当时其市值为17亿美元,而如今已达到3.2万亿美元。
- 亚马逊的濒临倒闭时刻发生在第四季度,当时该公司报告称,营收9.72亿美元,净亏损5.45亿美元。创始人兼时任首席执行官杰夫·贝佐斯在2000年的股东报告中指出:对于资本市场上的许多人来说,这是残酷的一年,对亚马逊股东来说更是如此。截至撰写本文时,我们的股价较我去年致函时已下跌超过80%。在2001年第三季度亏损后的低谷时期,亚马逊的市值为22亿美元,而其活跃客户账户数量仅为2300万。如今,亚马逊的市值为2.2万亿美元。从亚马逊于1997年第二季度成立,到其首个净利润为正的年份(2003年)结束,亚马逊在27个季度中累计亏损30亿美元。在最近的27个季度(2018年第三季度至2025年第一季度),亚马逊的累计净利润为1760亿美元。
- 谷歌的IPO申请文件(2004年4月)指出,在2004年第一季度,在仅完成A轮融资后,该公司就将22%的收入(3.9亿美元中的8600万美元)用于资本支出——在当时,这是一个令人难以理解的高数字。Google上市时的市值为230亿美元,而现在市值已达2.0万亿美元……
- Uber 在 2016 年至 2022 年间烧掉了 170 亿美元(在此之前烧钱更多),直到 2023 年才首次实现自由现金流为正。2022 年,其平台月活跃用户数为 1.31 亿。Uber 上一次股权融资是 G 轮融资。其完全稀释后的 IPO 市值为 820 亿美元,目前为 1890 亿美元。
- 特斯拉在 2009 年至 2018 年间烧掉了 92 亿美元,直到 2019 年才实现自由现金流为正。在 2009 年至 2018 年的十年间,该公司累计亏损 56 亿美元,交付了约 54 万辆汽车。该公司于 2010 年上市,市值为 16 亿美元。从 2019 年到 2024 年,该公司交付了 670 万辆汽车,盈利 400 亿美元。其市值目前为 1.1 万亿美元。
重要的是要记住(大多数情况下,归根结底)一家企业的估值应该代表其未来自由现金流的现值。上述这些现金消耗巨大的公司,都对这一前提进行了 艰苦的检验,基于产品卓越性/持续改进,构建了大规模数据驱动的网络效应,并发展了技术驱动的竞争优势,最终证明了反对者的错误。只有时间才能告诉我们,当前人工智能领域的雄心勃勃的企业最终将在盈利方程式的哪一边站稳脚跟。
1995 年 12 月 ,全球市值前30 家公司中的 16 家(53%)是美国公司
2025 年 5 月 = 全球市值前30 家公司中的 21 家(70%)是美国公司
1995年,美国拥有53%(30家公司中的16家),这一比例在2025年达到83%(30家公司中的25家)。日本从拥有9家到现在变为0家;瑞士紧随其后,从拥有3家到现在变为0家;英国从拥有2家到现在变为0家。
2025年,新进入榜单的地区包括:中国拥有2家,沙特阿拉伯、台湾和德国各拥有1家。
过去三十年(1995年至2025年),全球市值最高的30家上市公司中,仅有六家公司保持稳定——微软、沃尔玛、埃克森美孚、宝洁、强生、可口可乐。新进入榜单的公司包括英伟达、苹果、亚马逊、Alphabet(谷歌)、沙特阿美、Meta Platforms(脸书)、特斯拉、博通、伯克希尔·哈撒韦、台积电、摩根大通、Visa、礼来、腾讯、万事达卡、Netflix、好市多、甲骨文、家得宝、SAP、美国银行、中国工商银行、艾伯维和Palantir。
1995年,美国拥有全球最有价值的科技公司53%(30家公司中的16家),而到2025年,这一比例将达到70%(30家公司中的21家)。1995年,日本拥有全球最有价值的科技公司30%(30家公司中的9家),而到2025年,这一比例将降至0家。1995年,英国/新加坡/香港/墨西哥/马来西亚各有1家,而到2025年,现在为0家。
2025年,新上榜的地区包括中国大陆(3家)、德国(2家)、台湾(1家)、荷兰(1家)、韩国(1家)和印度(1家)。
需要注意的是,虽然台湾只有一家公司上榜——台积电(TSMC),但该公司生产了全球80%-90%的最先进半导体,并且根据战略与国际研究中心和Counterpoint Research的数据,截至2024年第二季度,其半导体产量占全球半导体产量的62%以上。
一代人的时间就能带来如此巨大的变化,令人惊叹!互联网连接的出现是大多数新增功能的基础,而人工智能的出现将在未来三十年产生同样的影响,但速度可能更快。
中国的 AI 响应时间与 Internet 1995 相比明显更快
——DeepSeek首席执行官梁文峰,2024年11月24日
政治方面的影响
Meta首席技术官Andrew Bosworth将当前的人工智能现状称为我们的太空竞赛,而我们正在讨论的对手,尤其是中国,都能力非凡……在此背景下,重要的是要记住太空竞赛的利害关系:证明哪个政治体制能够更快地创新,并在此过程中赢得世界的信任。在太空竞赛中胜出,有助于增强美国的战略威慑力,并巩固西方民主价值观的主导地位。人工智能“太空竞赛”也有可能重塑世界秩序。
中国当然深知这些利害关系。早在2015年,“中国制造2025”(一项旨在将中国关键行业从低成本制造转向高价值制造的新倡议)似乎还需要几十年的时间。快进到今天,中国已显著提升其在机器人、电气化和“信息技术”等战略领域的能力——其中最典型的体现就是世界级的人工智能。
中国的人工智能能力如今已成为国家战略领域的基础,例如战场后勤、目标识别、网络作战和自主决策平台。2025年,中国官方媒体强调了人工智能与非战斗支援功能(例如军队医院)的整合,而科技部则强化了其对战略技术“自主创新”的承诺。
中国人工智能霸权的影响将是深远的。
与此同时,除了人工智能之外,中美之间更广泛的经济贸易紧张局势持续升级,其驱动力在于对战略技术投入控制权的竞争。目前,中国仍然是全球“稀土元素”(先进电子产品、国防系统和清洁能源基础设施所必需的材料)的主要供应国,而美国正在努力应对这种失衡。与此同时,美国优先推动半导体制造业回流,并借助《芯片与科学法案》提供支持,并加强与盟国(包括日本、韩国和荷兰)的伙伴关系,以减少对中国供应链的依赖。台湾在这一动态中继续发挥着关键作用。尽管美国发明了晶体管和EUV光刻技术等核心半导体技术,但推动全球半导体生产的却是台湾的台积电——全球最先进的半导体代工厂,因此在两国的战略考量中都占据着核心地位。
美国花了很长时间才醒悟过来,但在二十年的无所作为之后,两党都在大声呼吁变革。尽管两党采取了不同的策略(拜登政府的出口管制,特朗普政府的经济民族主义和产业回流),但将尖端技术发展视为国家利益核心组成部分的举措值得欢迎。如参议员约翰·科宁和马克·沃纳在2020年关于半导体的讲话中所指出的那样,美国在半导体领域的创新支撑着我们整个创新经济。不幸的是,我们的自满情绪让我们的竞争对手迎头赶上。
然而,尽管采取了这些措施,美国的知识产权仍然面临风险;OpenAI表示,我们知道,总部位于中国的公司(以及其他公司)一直在试图借鉴美国领先人工智能公司的模型。至关重要的是,我们必须与美国政府密切合作,以最大程度地保护最强大的模型,防止对手和竞争对手窃取美国技术。然而,显而易见的是,自21世纪初中国加入世界贸易组织(WTO)的热情高涨以来,美国对中国科技的态度已经发生了变化。人工智能、半导体、关键矿产以及总体技术发展不再仅仅被视为经济或技术资产——它们代表着国家韧性和地缘政治力量的战略杠杆,对美国和中国都至关重要。
结语
最初的研究已经扩展到各行各业的新兴核心基础设施——为从客户支持到软件开发、科学发现、教育和制造等各个领域提供支持。本文旨在描绘人工智能扩展的速度和广度,特别关注使用趋势、成本动态、基础设施建设和早期盈利模式。主线很明确:人工智能正在加速发展,触及更多领域,并越来越深入地融入到工作方式中。
推动这一增长的因素包括全球范围内易于使用的多模态人工智能工具(如 ChatGPT),它们已在移动设备上普及,推理成本的大幅下降和模型可用性的激增也进一步增强了这一增长。如今,闭源和开源工具都已广泛普及,功能也日益强大,使个人开发者、初创企业和大型企业都能以最小的阻力进行实验和部署。与此同时,大型科技公司正在将人工智能更深层次地融入其产品中——推出copilot、assistant,甚至Agent,以重塑用户与技术的互动方式。无论是通过 SaaS 中的嵌入式智能,还是消费级应用中的代理工作流,界面层都在被实时重写。在计算方面,投资持续大幅增长。在竞相实现大规模实时、高容量推理的推动下,主要云服务提供商、芯片制造商和超大规模计算企业的资本支出均创下新高。投资不仅用于芯片,还用于新的算力中心、网络基础设施和能源系统,以满足日益增长的需求。这种资本支出水平能否持续尚待观察,但随着人工智能逐渐走向边缘(在车辆、农场、实验室和家庭中)数字基础设施和物理基础设施之间的界限日益模糊。
AGI的时间表仍不确定,但近年来专家的预期已显著提前。
OpenAI 首席执行官 Sam Altman 在 2025 年 1 月表示:“我们现在有信心,知道如何按照我们传统理解的方式构建 AGI。” 这是一个预测,而非格言,但它反映了模型架构、推理效率和训练规模的进步如何缩短研究与前沿能力之间的距离。更广泛的思路很明确:人工智能发展正以前所未有的速度发展,AGI 越来越被视为一个可实现的门槛,而非一个假设的终点。一旦实现,AGI 将重新定义软件(以及相关硬件)的功能。
AGI 系统将能够理解目标、制定计划并实时进行自我修正,而不是执行预先编程的任务。它们可以在几乎或完全无需人工监督的情况下驱动研究、工程、教育和物流工作流程——利用通用推理处理模糊性和新颖性。这些系统无需大量重新训练即可处理新的问题领域——它们可以迁移学习并根据情境进行操作,就像人类专家一样。
此外,由通用人工智能驱动的人形机器人将有能力重塑我们的物理环境以及我们在其中的运作方式。然而,其影响值得我们慎重看待。通用人工智能并非终点,而是能力的阶段性转变——它如何重塑机构、劳动力和决策,将取决于随之而来的保障措施和部署框架。生产力提升可能显著,但分布不均;其地缘政治、伦理和经济影响可能会逐渐演变,而非突然发生。与早期从工业到数字化再到算法化的转变一样,其全部后果不仅取决于技术的功能,还取决于社会如何选择采用和管理它。
当前,全球前沿人工智能系统的建设和部署竞赛,日益受到美国和中国之间战略竞争的影响。尽管美国公司迄今为止在模型创新、定制芯片和云规模部署方面处于领先地位,但中国在开源开发、国家基础设施和政府支持的协调方面也正在快速发展。两国不仅将人工智能视为经济的顺风,也将其视为地缘政治影响力的杠杆。这些相互竞争的人工智能生态系统正在加剧对主权、安全和速度的紧迫性。
最后,人工智能正在改变我们与周围世界的互动方式。随着价格实惠的卫星连接不断扩展至偏远和服务欠缺地区,下一波互联网用户很可能将通过人工智能原生体验上网——跳过传统的应用生态系统,直接进入对话式多模态代理。同样,人工智能在工作场所的应用也在加速,并有可能改变人们在工作中度过人生三分之一时间的方式。随着使用模式的演变和单位成本的下降,我们或许正在见证互联网的早期阶段,Agent将成为默认界面——易于访问、情境化且日益个性化。信息和资本的流动和透明度不断提高,以及越来越多的武器化案例,进一步放大了这一切。
与此同时,全球大国正更加公开地宣扬专制与民主的议程。随着科技与地缘政治日益交织,不确定性也在上升。有一件事是肯定的——人工智能的博弈时刻已经到来,而且只会更加激烈,而这个精灵不会再回到瓶子里了。
声明:本文内容来自Trends –Artificial Intelligence原文下载链接,作者仅做翻译、内容前后顺序调整与部分信息补充。